Hive小知识之分桶抽样

大数据技术与架构 2021-10-21

点击上方蓝色字体，选择“设为星标”

回复”资源“获取更多资源

大数据技术与架构点击右侧关注，大数据开发领域最强公众号！

暴走大数据点击右侧关注，暴走大数据！

先把大家都知道的分桶抽样查询的语法以及用法po出

select * from 分桶表 tablesample(bucket x out of y on 分桶字段);

假设当前分桶表，一共分了z桶！

x: 代表从当前的第几桶开始抽样

0<x<=y

y: z/y 代表一共抽多少桶！

y必须是z的因子或倍数！

怎么抽：从第x桶开始抽，当y<=z每间隔y桶抽一桶，直到抽满 z/y桶

举例1：

select * from stu_buck2 tablesample(bucket 1 out of 2 on id);

从第1桶开始抽，每间隔2桶抽一桶，一共抽2桶！

桶号：x+y*(n-1) 抽0号桶和2号桶

举例2：

select * from stu_buck2 tablesample(bucket 1 out of 1 on id);

从第1桶开始抽，每间隔1桶抽一桶，一共抽4桶！

抽0,1,2,3号桶

举例3：

select * from stu_buck2 tablesample(bucket 2 out of 8 on id);

从第2桶开始抽，一共抽0.5桶！

抽1号桶的一半

然而，当我自己实验时，发现实际情况跟预期有偏差

建表语句：

--创建分桶表create table people (id int,name string)clustered by (id)sorted by (name desc) into 4 bucketsrow format delimited fields terminated by '\t';--创建临时表create table tmp (id int,name string)row format delimited fields terminated by '\t';--加载数据load data local inpath '/home/guigu/data.txt' into table tmp;--加载数据到分桶表insert overwrite table people select * from tmp;

数据：分好的桶如下

然而查询时却发现本来打算取第2个桶里的4/8 数据，但返回的数据跟预期差得很多

其实

select * from 分桶表 tablesample(bucket x out of y on 分桶字段);
这个抽样查询的底层是把所有数据按照字段的hash值 % y 分成y 个区（相当于Hadoop里的分区），然后取第 x 区 中的数据。
之所以没有达到预期的效果，是因为用来测试的数据太少！

欢迎点赞+收藏+转发朋友圈素质三连

文章不错？点个【在看】吧！ 👇

: ， . Video Mini Program Like ，轻点两下取消赞 Wow ，轻点两下取消在看

大摩宏观策略谈：2025中美变局展望

假设，你遇到麦琳怎么办？

董事长两口子不干了，至暗时刻谁是白衣骑士

2024年心理咨询师报名通道开启！可考心理证书，无需辞职，名额有限，11月30日截止报名！！！

吴京捧红的白眼狼，爆红后却反咬一口，如今落魄到无戏可拍

Hive小知识之分桶抽样

您可能也对以下帖子感兴趣

大摩宏观策略谈：2025中美变局展望

假设，你遇到麦琳怎么办？

董事长两口子不干了，至暗时刻谁是白衣骑士

2024年心理咨询师报名通道开启！可考心理证书，无需辞职，名额有限，11月30日截止报名！！！

吴京捧红的白眼狼，爆红后却反咬一口，如今落魄到无戏可拍

生成图片，分享到微信朋友圈

Hive小知识之分桶抽样

您可能也对以下帖子感兴趣